Ricky の AI工具清单
大模型API
openrouter
智能体
桌面效率提升
🤖 智能体一:豆包
「豆包客户端」:https://www.doubao.com/download/desktop
工作流1 - AI划词:划取文字 → AI 搜索、翻译、解释、总结等各类 AI 辅助功能。(豆包在这一块较强)
工作流2 - 会议记录:会议文字稿生成 + 总结(缺点:无录音文件,更推荐使用通义)。
工作流3 - 截图AI搜索:截图 + AI搜索。
工作流4 - AI对话:AI语音对话。
🤖 智能体二:通义
「通义」:https://www.doubao.com/download/desktop
工作流1 - AI划词:划取网页端的文字 → AI翻译、总结。
工作流2 - 会议记录:会议录音 + 文字稿生成 + 总结(通义在这一块较强)。
网页自动化
browser-use/web-ui 是一个基于 Gradio 构建的 Web 用户界面,能够使 AI 智能体在浏览器中运行并交互。
部署:根据官方教程(链接)的步骤即可。(大模型的API可以使用 OpenRouter 平台)
相关教程视频:一句话命令AI操作浏览器替我打工,Browser Use原理+实战(B站:链接🔗 )
工作流(本地部署后): 进入项目文件夹web-ui
→ python webui.py --ip 127.0.0.1 --port 7788
启动程序 → 在打开浏览器,访问127.0.0.1:7788
→ 修改 Agent Setting
、LLM Settings
和 Browser Settings
→ 输入Prompt,运行 Run Agent
或者 Deep Research
应用示例:
- 网页自动化测试: 利用
browser-use/web-ui
,开发者可以创建自动化测试脚本,模拟用户在网页上的操作,验证网站功能的正确性。Medium - 数据抓取和分析: AI 代理可以通过该工具自动浏览特定网站,提取所需数据,并进行分析,适用于市场调研和信息收集等场景。
- 自动化表单填写: 在需要重复填写表单的情况下,AI 代理可以通过
browser-use/web-ui
自动完成,提高效率并减少人为错误。
注意 ⚠️:调用 OpenRouter 的大模型 API 遇到如下报错时 - Error code: 404 - {‘error’: {‘message’: ‘No endpoints found matching your data policy. Enable prompt training here: https://openrouter.ai/settings/privacy‘, ‘code’: 404}}
只需要登陆 https://openrouter.ai/settings/privacy,并修改 prompt training 即可。
绘图类 🎨
图片生成
- 照片风格转绘
- 原图 → 动画风格
- 吉卜力、(动画风格集合:链接)
- Prompt:帮我设计一个4宫格图照片。每张图片主角是一家三口和一条狗,然后身后还有一个路牌写着一个图片风格的英文单词/词组。尺寸是1:1,人物可以稍微远离镜头,以便可以看到人物全身。请分别用1,2,3,4风格渲染4张图片并拼成4宫格图,要求每个图片的路牌上只写对应的英文风格单词/词组。
- 原图 → 动画风格
- 照片光线调整
- GPT-4o 绘制精美的工作原理图(参考:链接)
- 第一步: 找一个想要的风格图,可以在ByteByteGO找
- 第二步:输入想要解释或学习的原理(Prompt:参考这个图的风格绘制 XXX 的工作原理)
- 教育场景
- 生成单词闪卡
- Prompt:你是一个英语单词闪卡制作大师,你可以根据我输入的 XXX 主题词,生成一个图片并以此拓展,比如我输入电脑,你生成一张和电脑相关的图片,并用箭头分步介绍键盘、鼠标、显示器等中文和英文。
- 生成单词四格动画
- Prompt:我想记住 XXX 这个单词,帮我创建一个风趣幽默四个小漫画帮助我记忆这个单词,漫画当中要有英文台词和说明,漫画风格为 YYY,最后输出这个单词的中英文注释。
- 生成单词闪卡
- 组合型场景
36种动画风格(引用链接):
英文风格名称 中文翻译 Studio Ghibli 吉卜力风格 Puppet 木偶风格 Crochet Doll 钩针玩偶风格 Cyberpunk 赛博朋克风格 Vector Art 矢量插画风格 Neon 霓虹灯风格 Gothic 哥特风格 Steampunk 蒸汽朋克风格 ![]()
英文风格名称 中文翻译 Gotham Noir 哥谭黑色风格 Muppet 布偶风格 Claymation 黏土动画风格 African Wax Print 非洲蜡染风格 LEGO Brick 乐高积木风格 Glitch Art 故障艺术风格 Pop Art 波普艺术风格 Chinese Ink Painting 中国水墨画风格 ![]()
英文风格名称 中文翻译 Polaroid 宝丽来风格 Low-Poly 低多边形风格 Bitmoji Bitmoji风格 Cookie Style 饼干人风格 Portrait 写实肖像风格 Van Gogh 梵高风格 Picasso 毕加索风格 Dali 达利风格 ![]()
英文风格名称 中文翻译 Ancient Egyptian 古埃及风格 Fairy Tale 童话风格 Oil Painting 油画风格 Japanese Ukiyo-e 日本浮世绘风格 Baroque 巴洛克风格 3D Pixar 皮克斯三维动画风格 Disney Animation 迪士尼动画风格 ![]()
英文风格名称 中文翻译 Playmobil Playmobil玩具风格 Minecraft 我的世界风格 Mad Max 疯狂麦克斯风格 80s Cartoon 80年代卡通风格 ![]()
https://ricky-typora-notes.oss-cn-hangzhou.aliyuncs.com/GnBgoV2bAAALFR0.jpeg
视频类 🎥
视频总结
🛠 方法一:通义听悟
工作流1:网络视频链接 → ParseVideo → 解析后的视频链接 → 通义听悟「博客链接撰写」解析
工作流2:网络视频链接 → SnapAny → 解析后的视频文件 → 通义听悟「上传音视频」解析
通义听悟:https://tingwu.aliyun.com/home(实测更适合B站)
🛠 方法二:kimi阅读助手
工作流:在视频界面打开插件 → 输入总结提示词
Kimi 阅读助手:Chrome插件 (实测更适合有字幕的油管视频)
以下的视频总结提示词来自 栗氪聊AI。
# 要求
请根据以下步骤,对提供的内容进行整理、重构、要点提炼以及反共识观点提取:
## 第一步: 整理与重构
- **阅读与理解**:仔细阅读全文,全面理解文章的主旨、脉络及议题。
- **主题归类**:将文章内容按主题进行归类,形成层次分明、逻辑清晰的结构。
- **润色与优化**:对归类后的各部分内容进行语言优化,使表述更加通顺、简洁。
- **信息完整性**:尽量保留原文的所有关键信息、数据和细节,确保信息零损失。
- **添加标题**:在每部分内容前添加合适的标题,以便读者快速定位。
## 第二步: 要点提炼
- **提炼核心要点**:基于整理和重构的内容,提炼3-5个核心要点。
- **结构化表达**:每个要点包含一个主要论点和2-3个原文中的支撑论据。
- **论据选择**:确保论据能有力佐证论点,并对关键内容进行补充说明。
- **简明扼要**:要点的表述应言简意赅,避免冗长,突出核心信息。
## 第三步: 提取反共识观点
- **识别反共识观点**:找出文章中与主流认知不符但具洞见的观点。
- **观点选择**:提取1-2个具代表性的反共识观点,激发读者思考。
- **简要阐释**:每个观点用200字内进行简要阐述,点明其独到之处。
- **联系实际**:在阐释中联系实际案例,以增强观点的说服力。
- **客观表达**:观点的提取和阐释应保持客观中立,不夹带个人偏见。
## 输出格式示例
**正文**:
[正文内容]
---
**核心要点**:
[核心要点内容,分别标示"要点1"、"要点2"等]
---
**反共识观点**:
[反共识观点内容,分别标示"观点1"、"观点2"等]
## 其他要求
- **格式规范**:各部分之间使用Markdown语法分隔,确保层次清晰、排版美观。
- **内容完整**:输出内容需包含上述所有部分,并严格按照指定顺序排列。
- **求证与确认**:如在分析中有任何不清晰或存疑之处,请向我提问确认,避免误解。
- **校对检查**:在正式输出前,请通读一遍内容,检查错别字、标点误用或语病,确保输出无瑕疵。
会议AI记录
工作流:打开网页 → 点击「通义浏览器插件」的「实时记录」功能
通义听悟浏览器插件:https://tongyi.aliyun.com/tingwu
视频生成
🛠工具一:可灵
静态照片 → 动态视频 工作流:上传静态图片 → 用大模型生成修改提示词 → 生成动态视频
可灵:https://app.klingai.com/cn/
可灵使用指南:https://docs.qingque.cn/d/home/eZQDKi7uTmtUr3iXnALzw6vxp
🛠工具二:Runway Gen-4
Runway Gen-4: https://runwayml.com/research/introducing-runway-gen-4